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摘要 


对 目前 已 知 3,000 余 种 蛇 类 的 研究 可 为 它们 的 基因 组 进化 提供 有 价值 的 见 
解 。 尖 吻 蜡 ， 也 被 称 为 尖 自 内 、 百 步 蛇 或 五 步 蛇 ， 是 一 种 具有 重要 经 济 、 医 学 
和 科学 价值 的 毒蛇 。 其 广泛 分 布 于 中 国 东 南部 和 东南 亚 ， 主 要 用 于 蛇毒 研究 。 
本 文采 用 二 代 测 序 技术 ， 组 装 和 注释 了 一 个 高 度 连续 的 尖 吻 临 基因 组 。 基 因 组 
大 小 为 1.46 Gb; 其 scaffold N50 长 度 为 6.21 Mb， 重 复 序 列 含量 为 42.81%， 共 
注释 出 24,402 个 功能 基因 。 本 研究 有 助 于 在 遗传 水 平 上 进一步 认识 和 利用 尖 吻 
WS Re Hug. 
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Abstract 


The study of the currently known >3,000 species of snakes can provide valuable 
insights into the evolution of their genomes. Deinagkistrodon acutus, also known as 
Sharp-nosed Pit Viper, one hundred-pacer viper or five-pacer viper, is a venomous 
snake with significant economic, medicinal and scientific importance. Widely 
distributed in southeastern China and South-East Asia, D. acutus has been primarily 
studied for its venom. Here, we employed next-generation sequencing to assemble and 
annotate a highly continuous genome of D. acutus. The genome size is 1.46 Gb; its 
scaffold N50 length is 6.21 Mb, the repeat content is 42.81%, and 24,402 functional 
genes were annotated. This study helps to further understand and utilize D. acutus and 
its venom at the genetic level. 


Keywords: Genetics and Genomics; Animal Genetics; Evolutionary Biology 


JM (Deinagkistrodon acutus) RTH. ERHI PAE, HI 
PIAP Fait. KERS COR 1 Aras) [1, 2]。 其 毒液 主要 具有 血液 毒 
性 ， 可 导致 凝血 功能 异常 并 促进 组 织 损伤 、 水 肿 、 急 性 肾 衰竭 等 反应 发 生 ， 主 
要 作用 于 肺 部 [3]。 尖 吻 临 在 中 国 东 南部 、 老 挝 和 越 丙 北部 广泛 分 布 ， 因 其 较 
大 的 身体 以 及 毒液 而 具有 重要 的 商用 及 药 用 价值 [4, 5]。 目 前 尖 吻 晶 的 研究 主 
要 集中 在 其 毒液 的 毒性 成 分 、 被 咬 伤 患者 的 症状 分 析 等 方面 ， 以 及 对 蛇毒 的 利 
用 进行 了 研究 ， 如 体外 抑 菌 、 毒 液 中 特定 蛋白 具有 抗 血 栓 、 抗 凝血 活性 等 [6- 
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9]。 高 质量 的 基因 组 有 助 于 蛇毒 相关 基因 的 发 现 ， 进 而 可 以 帮助 研究 人 员 更 好 
地 了 解 及 利用 蛇毒 。 

本 研究 基于 二 代 测 序数 据 对 尖 吻 晶 基 因 组 进行 组 装 和 注释 , 这 些 数据 为 蛇毒 
相关 基因 的 发 现 及 利用 、 更 好 地 了 解 蛇 的 系统 发 育 和 进化 提供 了 重要 的 数据 支持 。 


图 1 杨 典 成 拍摄 的 一 条 尖 吻 量 
Figure 1. An individual of D. acutus photographed by Diancheng Yang. 


材料 与 方法 
样本 采集 与 测序 

从 安徽 省 黄山 市 (中 国 ) 获得 一 条 重 781 g ARYE (NCBI: txid36307) 用 
于 基因 组 组 装 及 注释 。 取 其 肝 、 胃 、 肾 以 及 肌肉 组 织 用 于 RNA 提取 ， 男 取 两 份 
肌肉 组 织 分 别 用 于 全 基因 组 测序 (Whole Genome Sequencing, WGS) 和 单 管 长 
片段 序列 (single-tube long fragment read, stLFR) 测序 前 的 DNA 提取 。 按 照 刘 
博 洋 等 的 方案 提取 人 尖 吻 蜡 DNA、 构 建文 库 并 进行 双 端 测序 (如 图 2 所 示 ) [10]。 
样本 采集 及 相关 实验 流程 经 华 大 基因 机 构 审查 委员 会 批准 (BGI-IRB E22017)。 
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2 收集 在 protocols.io 中 用 于 蛇 基 因 组 一 般 测 序 的 说 明 [10] 


Figure 2. Protocol collected from protocols.io for sequencing snake genomes [10]. 


VERSION 2 v 


基因 组 组 装 注释 及 评估 
通过 25x WGS 测序 数据 评估 组 装 的 尖 吻 晶 基 因 组 大 小 。 利 用 GCE (v1.0.2, 
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RRID:SCR 017332) 的 Kmerfreq 进行 k-mer 频数 统计 。 其 输出 结果 表明 共 获 取 
32,372,553,516 个 k-mer 片段 (k=19), 将 上 述 结果 输入 GCE 并 使 用 杂 合 模式 (k- 
mer 深度 峰值 为 21) 评估 基因 组 大 小 、 杂 合 度 等 [11]。 我 们 使 用 stLFR 数据 、 
利用 Supernova (v2.1.1, RRID:SCR_ 016756) 进行 基因 组 组 装 。 为 使 组 装 的 序列 
更 完整 ,利用 GapCloser (v1.12-r6，RRID:SCR 015026) 和 WGS 测序 数据 填补 
空白 ， 并 利用 redundans (v0.14a) 去 除 基因 组 的 元 余 序 列 [12]。 使 用 图 2 中 描 
述 的 方法 获得 最 终 基 因 组 。 我 们 使 用 从 头 预测 和 基于 同 源 性 的 方法 来 识别 基因 组 
组 装 中 的 重复 区 域 。 基 于 同 源 性 的 预测 使 用 Blastall (v2.2.26) 进行 [12]. A 
而 言 , 我 们 将 来 自 UniProt 数据 库 ( 发 布 号 :2020_05) 的 东部 拟 眼 镜 蛇 (Pseudonaja 
textilis), PEH ÆRE (Crotalus tigris), Rte (Thamnophis elegans) pgs 
CNotechis scutatus) IN 2 EA FF 9 Eon] 8] ds dé FE ES] ZH Fe pi], FR I TREE ER 
方案 进行 基因 组 注释 和 评估 [10]. 

为 重建 系统 发 育 树 , 利用 OrthoFinder (v2.3.7, RRID: SCR 017118) [13] 在 
中 国 林 蛙 (Rana temporaria, GCA_905171775.1), E W X hie (Gopherus 
evgoodei , GCA_007399415.1). {AM BEIM (Podarcis muralis , GCA_004329235.1) 
Rte (Thamnophis elegans ，GCA 00976953$.1)、 东 部 拟 眼 镜 蛇 (Pseudonaja 
textilis ，GCA 900518735.1) 蛋白 序列 中 寻找 单 拷贝 同 源 基因 。 


数据 验证 和 质 控 

利用 stLFR 测序 产生 164.75 Gb 的 主要 结果 文件 组 装 了 1.46 Gb WAY 
WIER. FERIA MIRA N50 scaffold 分 别 为 39.38 Mb 和 6.21 Mb 〈 如 表 1 
所 示 )， 这 表明 基因 组 具有 高 度 的 连续 性 。 将 最 终 基 因 组 与 兰 椎 动物 数据 库 
(vertebrate_odb10) 中 3,354 BUSCOs 进行 比较 , 我 们 发 现在 尖 吻 昌 基 因 组 中 ， 
3,354 个 将 椎 动物 基因 有 87.2%， 即 2,924 个 基因 被 覆盖 分别 仅 有 245 个 
(7.3%) 和 185 个 (5.5%) 基因 部 分 比 对 上 及 未 得 到 比 对 结 


表 1 与 本 研究 中 组 装 的 尖 吻 晶 基 因 组 相关 的 基因 组 组 装 数 据 


Table 1 Genome assembly data relative to the D. acutus genome assembled in this study. 


Item Category Size 
stLFR (Gb) 164.75 
WGS (Gb) 96.76 
RNA-seq (Gb) 10.42 
Assembled genome (Gb) 1.46 
Sequencing data Longest Contig (Mb) 0.52 
Contig N50 (Mb) 0.03 
Longest scaffold (Mb) 39.38 
Scaffold N50 (Mb) 6.21 
GC content (%) 37.9 


SRN WS S DR] 28H AS FP PAL EN 642 Mb， 占 整个 基因 组 的 42.81% Cle 
2. Ed 3 所 示 )。 基 于 从 头 预 测 ， 统 计 基 因 组 中 各 种 重复 序列 含量 。 最 占 优势 的 重 
复元 件 是 长 散在 重复 元 件 (long interspersed nuclear elements , LINEs) (443 Mb), 
其 次 是 长 末端 重复 (long terminal repeats , LTRs) (180Mb)、DNAS (26.43 Mb) 


和 短 散 在 重复 元 件 (short interspersed nuclear elements , SINEs) (0.94 Mb). LINEs 


Al LTRs 的 含量 分 别 为 29.53 % 和 11.99% ME 3 所 示 )。 重 复 序列 对 于 遗传 信 


EMIS AR fl 


图 3 RIRI 


X 2 RY WEE 


Table 2 Statistics for repetitive sequences in the D. acutus genome. 
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HRA EZEN, ELS NEAR IS AK 


I 统计 


Type Repeat Size  % of genome 
Trf 49,665,678 3.158437 
RepeatMasker 
254,179,490 16.16428 
(RRID:SCR_012954) 

Proteinmask 190,282,517 12.100819 

De novo 636,067,480 40.45005 

Total 673,253,494 42.814856 
a b 

一 ? DNA 2 DNA 

Es 5 sin z 15 BN 
E 0.5 ? 0.5 
0 0 
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Sequence divergence rate(%) 


Sequence divergence rate(%) 


Ol 


因 组 转 座 元 件 (transposable elements , Tes) 的 分 布 。TEs 包括 DNA 和 RNA 


转 座 子 CHI DNAs, LINEs. LTRs fil SINEs). (a) denovo 序列 的 差异 率 分 布 。(b) 已 知 序列 
的 差异 率 分 布 。 
Figure 3. Distribution of transposable elements (Tes) in the D. acutus genome. The TEs include 
DNA and RNA transposons (i.e., DNAs, LINEs, LTRs and SINEs). (a) Divergence rate distribution 


of the de novo sequences. (b) Divergence rate distribution of known sequences. 


de 3 WE A ZA RE Fe] (de novo) 统计 
Table 3 Statistics for the repetitive sequences (de novo) from our D. acutus genome. 
Type Length (Bp) % in genome 
DNA 27,712,037 1.762318 
LINE 464,343,121 29.529418 
SINE 984,426 0.062604 
LTR 188,498,215 11.987348 
Other 0 0 
Satellite 1,180,615 0.07508 
Simple_repeat 2,250,205 0.143099 
Unknown 2,609,514 0.165949 
Total 636,067,480 40.45005 


x 


有 24,402 个 功能 基因 被 注释 (如 表 4 所 示 )。 对 功能 基因 进行 


基因 本 体 论 
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(gene ontology , GO) 富 集 分 析 结 果 显 示 ， 基 因 富 集 于 生物 过 程 (biological 
processes ，BP)、 细 胞 成 分 〈cellular components , CC) 和 分 子 功 能 (molecular 
functions , MF) 中 。 其 中 细胞 过 程 (cellular process)、 膜 (membrane) 和 结合 

(binding) 分 别 在 BP. CC 和 MF 中 含量 最 高 。 对 功能 基因 进行 KEGG 通路 富 
集 分 析 结 果 表明 , 信和 号 转 导 相关 基因 在 尖 吻 几 中 具有 至 关 重 要 的 作用 〈 如 图 4 所 
示 )。 此 外 ， 与 代谢 相关 的 富 集 通 路 数量 最 多 。 


K 4 尖 吻 昌 基 因 组 功能 注释 结 
Table 4 Functional annotation result of our D. acutus genome. 


Number Percentage (%) 
Total 24,402 100% 

Swiss-Prot annotated 19,527 80.02% 
KEGG annotated 20,869 85.52% 
TrEMBL annotated 22,927 93.96% 
InterPro annotated 23,089 94.62% 
GO annotated 14,512 59.47% 
Overall 23,844 97.71% 
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图 4 ROWE EAE EKNE. (a) GO 富 集 。(b) KEGG 富 集 。 
Figure 4. Gene annotation of our D. acutus genome. (a) GO enrichment. (b) KEGG enrichment. 


构建 系统 发 育 树 结果 (如 图 5 所 示 ) 表明 , 我 们 的 数据 可 以 用 于 物种 系统 发 
育 树 的 构建 且 该 树 与 其 他 人 的 研究 结果 一 致 [14]。 通 过 将 本 研究 中 组 装 的 基因 
组 数据 与 染色 体 水 平 的 尖 吻 凤 基 因 组 数据 [1] 比较 可 知 ， 我 们 成 功 组 装 并 注释 
—^r i BEXESE R E E DA] 2H o 


AIRT Rana temporaria 

一 -一 一 一 8135051 Gopherus evgoodei 

Mur 0107328 Podarcis muralis 

E 5 0.10902. Deinagkistrodon acutus 

00480674 — Thamnophis elegans 
00456059 Pseudonaja textilis 


0,0983286 


0.0248932 


图 5 利用 核 基 因 组 单 拷贝 基因 重建 系统 发 育 树 。 数 字 表 示 分 支 的 长 度 。 有 色 方 块 表示 
bootstraps/metadata， 显 示范 围 为 0.49744 到 1. 
Figure 5. Phylogenetic tree reconstructed using single-copy genes from nuclear genomes. The 


numbers represent the branch lengths. The colored squares represent bootstraps/metadata. The 
display range is 0.499744 to 1. 


重用 潜力 

BUM NBs n] Ah RW ES SAA. 此外, 它 也 可 与 其 它 蛇 
因 组 结合 使 用 ,用 于 研究 蛇 类 的 系统 发 育 和 进化 。 最 后 , 我们 的 基因 组 可 为 
和 相关 毒 理学 研究 提供 数据 支持 。 


类 基 
蛇 


Wn 


发 表 同 意 
不 适用 


数据 可 用 性 
和 
列 档案 (CNSA) [16]， 编 号 为 CNP0004047。 原始 数据 也 可 通过 PRJNA9%55401 
在 SRA 中 获得 。 其 它 数据 可 在 GigaDB 存储 库 中 获得 [17]。 


缩 略 词 表 

BP, biological process; CC, cellular component; GO, gene ontology; LINE, long 
interspersed nuclear element; LTR, long terminal repeat; MF, molecular function; SINE, 
short interspersed nuclear elements; stLFR, single-tube long fragment read; TE, 
transposable elements; WGS, Whole Genome Sequencing. 
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